Day 8 Proxmox VE 進階應用篇 - I have a GPU Card - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2023 iThome 鐵人賽

DAY 8

Cloud Native

帶著MBP在異世界探險的科技宅系列第 8 篇

Day 8 Proxmox VE 進階應用篇 - I have a GPU Card

15th鐵人賽

團隊NUTC-IMAC-MASTER-23

2023-09-11 01:04:09

881 瀏覽

分享至

嗨各位，相信各位一定有用過最近很夯的 Bard 或是 ChatGPT 吧？
像是這種生成式AI（Generative AI）的訓練往往需要用到大量的 GPU
而在 Proxmox VE 的環境中，VM 預設是沒辦法直接存取到宿主的 PCIE 裝置的(以這個例子來說是 GPU，然後我們只討論外接顯示卡不討論內顯or版載之類的情境)

這時候我們就需要由宿主機(host)把 GPU(PCIE裝置) 的控制權交給我們的 VM 啦(也就是 GPU-Passthrough )

首先，我們先把 grub 裡的開機參數 ( 位於 /etc/default/grub ) 新增 iommu ，來讓我們的 VM 可以存取宿主機(host)的硬體資源
並且讓 Linux Kernel 在載入時，不去載入 EFI framebuffer 以避免在開機過程中 GPU 被宿主機(host)搶去
AMD CPU 會是 amd_iommu，而 Intel CPU 會是 intel_iommu

nano /etc/default/grub

/etc/default/grub

...
GRUB_CMDLINE_LINUX_DEFAULT="quiet intel_iommu=on video=efifb:off"
...

然後我們更新 /boot 分區的開機檔案

update-grub

完成後，我們去新增 IOMMU 會用到的 Kernel Module

nano /etc/modules

/etc/modules

vfio
vfio_iommu_type1
vfio_pci
vfio_virqfd

最後，在宿主機(host)的設定裡，我們將可能會嘗試使用到 GPU 的 Kernel Module
nano /etc/modprobe.d/blacklist.conf

blacklist radeon
blacklist nouveau
blacklist nvidia
blacklist nvidiafb
blacklist i2c_nvidia_gpu
blacklist snd_hda_intel
blacklist snd_hda_codec_hdmi
blacklist i915

然後更新 initramfs